客户端之间的非独立和相同分布(非IID)数据分布被视为降低联合学习(FL)性能的关键因素。处理非IID数据(如个性化FL和联邦多任务学习(FMTL)的几种方法对研究社区有很大兴趣。在这项工作中,首先,我们使用Laplacian正规化制定FMTL问题,明确地利用客户模型之间的关系进行多任务学习。然后,我们介绍了FMTL问题的新视图,首次表明配制的FMTL问题可用于传统的FL和个性化FL。我们还提出了两种算法FEDU和DFEDU,分别解决了通信集中和分散方案中的配制FMTL问题。从理论上讲,我们证明了两种算法的收敛速率实现了用于非凸起目标的强大凸起和载位加速的线性加速。实验,我们表明我们的算法优于FL设置的传统算法FedVG,在FMTL设置中的Mocha,以及个性化流程中的PFEDME和PER-FEDAVG。
translated by 谷歌翻译
Temporal Graph Neural Network (TGNN) has been receiving a lot of attention recently due to its capability in modeling time-evolving graph-related tasks. Similar to Graph Neural Networks, it is also non-trivial to interpret predictions made by a TGNN due to its black-box nature. A major approach tackling this problems in GNNs is by analyzing the model' responses on some perturbations of the model's inputs, called perturbation-based explanation methods. While these methods are convenient and flexible since they do not need internal access to the model, does this lack of internal access prevent them from revealing some important information of the predictions? Motivated by that question, this work studies the limit of some classes of perturbation-based explanation methods. Particularly, by constructing some specific instances of TGNNs, we show (i) node-perturbation cannot reliably identify the paths carrying out the prediction, (ii) edge-perturbation is not reliable in determining all nodes contributing to the prediction and (iii) perturbing both nodes and edges does not reliably help us identify the graph's components carrying out the temporal aggregation in TGNNs.
translated by 谷歌翻译
在过去的几年中,已经引入了许多基于输入数据扰动的解释方法,以提高我们对黑盒模型做出的决策的理解。这项工作的目的是引入一种新颖的扰动方案,以便可以获得更忠实和强大的解释。我们的研究重点是扰动方向对数据拓扑的影响。我们表明,在对离散的Gromov-Hausdorff距离的最坏情况分析以及通过持久的同源性的平均分析中,沿输入歧管的正交方向的扰动更好地保留了数据拓扑。从这些结果中,我们引入EMAP算法,实现正交扰动方案。我们的实验表明,EMAP不仅改善了解释者的性能,而且还可以帮助他们克服最近对基于扰动的方法的攻击。
translated by 谷歌翻译
尽管最近关于了解深神经网络(DNN)的研究,但关于DNN如何产生其预测的问题仍然存在许多问题。特别是,给定对不同输入样本的类似预测,基本机制是否会产生这些预测?在这项工作中,我们提出了Neucept,这是一种局部发现关键神经元的方法,该神经元在模型的预测中起着重要作用,并确定模型的机制在产生这些预测中。我们首先提出一个关键的神经元识别问题,以最大程度地提高相互信息目标的序列,并提供一个理论框架,以有效地解决关键神经元,同时控制精度。Neucept接下来以无监督的方式学习了不同模型的机制。我们的实验结果表明,Neucept鉴定的神经元不仅对模型的预测具有强大的影响,而且还具有有关模型机制的有意义的信息。
translated by 谷歌翻译
ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列,该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战,这是由于探测器的几何形状,不均匀的散射和冰中光的吸收,并且低于100 GEV的光,每个事件产生的信号光子数量相对较少。为了应对这一挑战,可以将ICECUBE事件表示为点云图形,并将图形神经网络(GNN)作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开,对不同的中微子事件类型进行分类,并重建沉积的能量,方向和相互作用顶点。基于仿真,我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术,包括已知系统不确定性的影响。对于中微子事件分类,与当前的IceCube方法相比,GNN以固定的假阳性速率(FPR)提高了信号效率的18%。另外,GNN在固定信号效率下将FPR的降低超过8(低于半百分比)。对于能源,方向和相互作用顶点的重建,与当前最大似然技术相比,分辨率平均提高了13%-20%。当在GPU上运行时,GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件,这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。
translated by 谷歌翻译
时间图神经网络(TGNN)由于能够捕获图形拓扑依赖性和非线性时间动力学的能力而广泛用于建模与图形相关的任务。TGNN的解释对于透明和值得信赖的模型至关重要。但是,复杂的拓扑结构和时间依赖性使解释TGNN模型非常具有挑战性。在本文中,我们为TGNN模型提出了一个新颖的解释器框架。给定图表上的时间序列待解释,该框架可以在一个时间段内以概率图形模型的形式识别出主要的解释。关于运输域的案例研究表明,所提出的方法可以在一段时间内发现道路网络中的动态依赖性结构。
translated by 谷歌翻译
在视频中利用时空冗余的自适应抽样对于在有限的计算机和电池资源的可穿戴设备上始终进行动作识别至关重要。常用的固定采样策略不是上下文感知的,并且可能会在视觉内容下进行样本,从而对计算效率和准确性产生不利影响。受到人类视觉感知机制的动脉视觉和动力前处理的概念的启发,我们引入了一种新型的自适应时空抽样方案,以进行有效的动作识别。我们的系统以低分辨率为扫描前扫视全球场景上下文,并决定跳过或要求在显着区域的高分辨率功能进行进一步处理。我们在Epic-Kitchens和UCF-101数据集上验证该系统以进行动作识别,并表明我们所提出的方法可以大大加快与最先进基线相比的准确性丧失的推断。
translated by 谷歌翻译
多模态数据集的可用性提供了一个独特的机会,可以更全面地使用多个视点来表征相同的兴趣对象。在这项工作中,我们研究了使用规范相关性分析(CCA)和CCA(PCCA)的罚款变种用于两种方式的融合。我们研究了一个简单的图形模型,用于生成双模数据。我们分析表明,通过已知的模型参数,后均估计器共同使用的两种模式优于单个模态后估计在潜在可变预测中的任意线性混合。包含域知识的CCA(PCCA)的惩罚扩展可以发现与高维,低样本数据的相关性,而传统的CCA是不可应用的。为了便于使用PCCA产生多维嵌入,我们提出了两个基质放气计划,该方案强制实施CCA所表现出的理想性质。我们通过组合上述所有具有潜在可变预测的通货卡来提出一种两阶段预测管道。在模拟数据上,我们提出的模型大大降低了潜在可变预测中的平均平均误差。当从癌症基因组地图集(​​TCGA)乳腺癌患者的公开可用的组织病理学数据和RNA测序数据中时,我们的模型可以在生存预测中呈现相同维度的主要成分分析(PCA)嵌入。
translated by 谷歌翻译
在硬件知识可分辨率神经结构中搜索(DNA),计算硬件度量梯度以执行架构搜索是具有挑战性的。现有工作依赖于线性近似,对定制硬件加速器的有限支持。在这项工作中,我们提出了端到端的硬件感知DNA(EH-DNA),无缝集成端到端硬件基准测试,以及全自动DNA,以在各种平台上提供硬件有效的深神经网络,包括边缘GPU,边缘TPU,移动CPU和定制加速器。考虑到期望的硬件平台,我们建议学习一种可分解​​模型,预测DNA的神经网络架构的端到端硬件性能。我们还介绍了E2E-PERF,用于定制加速器的端到端硬件基准测试工具。 CIFAR10和Imagenet的实验表明,EH-DNA平均提高了硬件性能,平均为您的定制加速器和现有硬件处理器的$ 1.6 \倍$ 1.6 \倍。
translated by 谷歌翻译
近年来,知识蒸馏(KD)被认为是模型压缩和加速度的关键解决方案。在KD中,通过最大限度地减少两者的概率输出之间的分歧,一项小学生模型通常从大师模型中培训。然而,如我们实验中所示,现有的KD方法可能不会将老师的批判性解释知识转移给学生,即两种模型所做的预测的解释并不一致。在本文中,我们提出了一种新颖的可解释的知识蒸馏模型,称为XDistillation,通过该模型,解释信息都从教师模型转移到学生模型。 Xdistillation模型利用卷积的自动统计学器的想法来近似教师解释。我们的实验表明,由Xdistillation培训的模型优于传统KD方法的那些不仅在预测准确性的术语,而且对教师模型的忠诚度。
translated by 谷歌翻译